智能论文笔记

Accelerating Inference and Language Model Fusion of Recurrent Neural Network Transducers via End-to-End 4-bit Quantization

Andrea Fasoli , Chia-Yu Chen , Mauricio Serrano , Swagath Venkataramani , George Saon , Xiaodong Cui , Brian Kingsbury , Kailash Gopalakrishnan

分类：自然语言处理 | 机器学习

2022-06-16

我们报告了激进的量化策略，这些策略极大地加速了复发性神经网络传感器（RNN-T）的推理。我们使用4位整数表示进行权重和激活，并应用量化意识训练（QAT）来重新训练完整模型（声学编码器和语言模型）并实现近乎ISO的准确性。我们表明，根据网络本地属性量身定制的自定义量化方案对于在限制QAT的计算开销的同时，至关重要。密度比语言模型融合已显示出在RNN-T工作负载上的准确性提高，但严重增加了推理的计算成本。我们表明，我们的量化策略可以使用大型宽度宽度进行假设搜索，同时实现与流媒体兼容的运行时间，并且与完整的Precision模型相比，我们可以实现与流相兼容的运行时间和7.6 $ \ times $的完整模型压缩比。通过硬件仿真，我们估计端到端量化的RNN-T（包括LM Fusion）的3.4 $ \ times $从fp16到INT4，导致实时因子（RTF）为0.06。在NIST HUB5 2000，HUB5 2001和RT-03测试集中，我们保留了与LM Fusion相关的大部分收益，将平均WER提高了$ 1.5％。

translated by 谷歌翻译

由于其在虚拟化设置中为客户提供了现实，个性化的产品演示，虚拟试验系统潜入了很大的关注。在本文中，我们呈现PT-VTON，一种基于布料的新型姿势转移框架，可以使用任意姿势进行虚拟试验。PT-VTON可以应用于时尚行业的现有系统的最小修改，同时满足整体视觉时尚性和详细的面料外观要求。它使得能够在模型和用户图像之间传输有效的衣服，具有任意姿势和身体形状。我们实施PT-VTON的原型，并证明我们的系统在面对姿势的剧烈变化时，我们的系统可以通过保留详细的人和织物特征出现而匹配或超越许多其他方法。PT-VTON显示在基于机器的定量度量和定性结果的替代方法。

translated by 谷歌翻译